Complejidad del aprendizaje por refuerzo offline con Q* y cobertura parcial La combinación de Q* y Bellman completa no es suficiente para RL offline con cobertura parcial. Descubre el nuevo marco teórico y mejoras. 2026-06-09 · 2 min